端到端的学习模型表明,在执行语音隔离方面具有显着的能力。尽管它们在现实世界中广泛应用,但对他们对分组的机制并因此将单个说话者隔离开来知之甚少。在这项工作中,我们知道谐调是这些网络分组源的关键提示,我们对Convtasnet和DPT-NET进行了彻底的研究,以分析它们如何对输入混合物进行谐波分析。我们进行彻底研究,在其中应用低通,高通和带路的多个传球循环过滤器,以凭经验分析最重要的隔离谐波。我们还研究了这些网络如何通过引入合成混合物中的不连续性来决定将哪种输出通道分配给估计来源。我们发现,端到端网络非常不稳定,并且在面对人类无法察觉的变形时性能差。用频谱图替换这些网络中的编码器会导致整体性能降低,但稳定性更高。这项工作有助于我们理解这些网络依赖语音隔离的信息,并揭示了两种概括源。它还将编码器指定为负责这些错误的网络的一部分,从而可以重新设计专家知识或转移学习。
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
使用规划算法和神经网络模型的基于模型的强化学习范例最近在不同的应用中实现了前所未有的结果,导致现在被称为深度增强学习的内容。这些代理非常复杂,涉及多个组件,可能会为研究产生挑战的因素。在这项工作中,我们提出了一个适用于这些类型代理的新模块化软件架构,以及一组建筑块,可以轻松重复使用和组装,以构建基于模型的增强学习代理。这些构建块包括规划算法,策略和丢失功能。我们通过将多个这些构建块组合实现和测试经过针对三种不同的测试环境的代理来说明这种架构的使用:Cartpole,Minigrid和Tictactoe。在我们的实施中提供的一个特定的规划算法,并且以前没有用于加强学习,我们称之为Imperage Minimax,在三个测试环境中取得了良好的效果。用这种架构进行的实验表明,规划算法,政策和损失函数的最佳组合依赖性严重问题。该结果提供了证据表明,拟议的架构是模块化和可重复使用的,对想要研究新环境和技术的强化学习研究人员有用。
translated by 谷歌翻译
我们提出了一种新的方法,以综合新姿势的人民观点。我们的新颖可分解渲染器能够从任何观点来合成高度现实的图像。我们的渲染器而不是经过基于网格的结构,而不是经过网格的结构,而是利用直接代表人类的底层骨骼结构的弥漫性高斯基元。渲染这些原语可以通过解码器网络转换成RGB图像的高维潜像。制剂产生了可以训练端到端的完全可分辨率的框架。我们展示了我们对人类3.6M和Panoptic Studio数据集的图像重建方法的有效性。我们展示了我们的方法如何用于个人之间的运动转移;新颖的观看综合从单个相机捕​​获的个体;从任何虚拟角度扫描个体;并重新渲染新颖的姿势。代码和视频结果在https://github.com/guillaumerochette/humanviewsynthesis中获得。
translated by 谷歌翻译
本文介绍了一种名为Polytrack的新方法,用于使用边界多边形的快速多目标跟踪和分段。PolyTrack通过产生其中心键盘的热插拔来检测物体。对于它们中的每一个,通过在每个实例上计算限定多边形而不是传统边界框来完成粗略分割。通过将两个连续帧作为输入来完成跟踪,并计算在第一帧中检测到的每个对象的中心偏移,以预测其在第二帧中的位置。还应用了卡尔曼滤波器以减少ID交换机的数量。由于我们的目标应用程序是自动化驾驶系统,因此我们在城市环境视频上应用了方法。我们在MOTS和Kittimots数据集上培训和评估多轨。结果表明,跟踪多边形可以是边界框和掩模跟踪的良好替代品。Polytrack代码可在https://github.com/gafaua/polytrack上获得。
translated by 谷歌翻译